# 数据集：文件
# mysql不适合：1。性能瓶颈，读取速度慢  2格式不适合机器学习的要求
# pandas工具[基于numpy速度快--1释放了GIL(全局解释器锁)--2真正的多线程实现了并行]

# 数据集组成
# 特征值(列)+目标值(想要的结果eg:分辨男女 男or女)
# 特征工程定义
# scikit-learn
#